简介

该数据集旨在测试时间序列数据库中的索引方案。数据显示高度周期性，但从未完全重复。此功能旨在挑战索引任务。

数据集描述

数据类型

数据是一个合成的单变量时间序列。

数据特征

该数据集旨在测试时间序列数据库中的索引方案。这是一个比任何已发表的研究中都使用的数据集要大得多的数据集（我们目前知道）。它包含一百万个数据点。数据被分成10个部分以便于测试（见下文）。我们建议使用10万个数据点部分中的9个构建索引，并从第10部分中随机提取查询形状。（一些以前发布的工作似乎使用了也用于构建索引结构的查询，这会产生乐观的结果）数据很有趣，因为它们具有不同分辨率的结构。通过独立调用函数生成的10个部分中的每一部分：

rand(x)产生零和x之间的随机整数。
数据显示高度周期性，但从未完全重复。此功能旨在挑战索引结构。时间序列如下图所示：

数据格式

数据存储在一个ASCII文件中。有10列，10万行。所有的数据点都在-0.5到+0.5的范围内。行由回车，空格分隔。

数据集下载

synthetic.data.gz (5.0M; 16.2M uncompressed)

相关论文

[1] Eamonn J. Keogh, Michael J. Pazzani: (1999). An indexing scheme for similarity search in large time series databases. The 11th International Conference on Scientific and Statistical Database Management. Cleveland, Ohio.
[2] L Yang,D Neagu. A New Approach and Its Applications for Time Series Analysis and Prediction Based on Moving Average of n th -Order Difference. 2012.
[3] S Basterrech,G Rubino,V Snášel. Sensitivity analysis of echo state networks for forecasting pseudo-periodic time series. 2016.
[4] M Small,RG Harrison,CK Tse. A Surrogate Test for Pseudo‐periodic Time Series Data. 2002.